max rank | avg. rank | sentence |
---|---|---|
247 | 194.3333 | To galvenokārt lieto valsts rietumu pusē. |
324 | 154.3750 | Šajā sezonā piedalījās 10 komandas (visas no ASV). |
421 | 261.6250 | ASV izlase izcīnīja 3. zelta medaļu pēc kārtas. |
488 | 213.8750 | Tās ķermeņa garums ir bijis 9 - 10 metri. |
567 | 198.1250 | Pēc Otrā pasaules kara šaha turnīros piedalījies reti. |
572 | 339.0000 | Pasaules čempionātos izcīnījis četras zelta medaļas. |
579 | 180.7500 | Otrā pasaules kara laikā to ieņēma vācu karaspēks. |
586 | 296.2500 | ASV izlase izcīnīja 6. zelta medaļu pēc kārtas. |
588 | 245.7273 | Lielākā pilsētas daļa atrodas mazāk kā 100 metru virs jūras līmeņa. |
635 | 220.3333 | Viņš ir arī izcīnījis 14 zelta medaļas Pasaules čempionātā. |
637 | 242.2500 | Pirmo vietu un zelta medaļas ieguva PSRS komanda. |
653 | 295.7500 | Eiropas kausa sacensībās pirmoreiz piedalījās 2010. gada novembrī. |
676 | 307.3750 | Pilsēta vidēji atrodas 15 metrus virs jūras līmeņa. |
684 | 268.2500 | Latvijas PSR laikā šeit atradās Padomju armijas daļa. |
697 | 224.3750 | Šajā sezonā piedalījās 18 komandas (visas no ASV). |
704 | 276.4286 | Pēc citiem datiem tas notika 16. novembrī. |
729 | 240.0000 | No šīs pilsētas cēlies arī jūras vārds. |
742 | 311.8889 | Rīga kļuva par Zviedrijas lielāko pilsētu pēc iedzīvotāju skaita. |
764 | 243.2857 | Francijas izlases sastāvā spēlē kopš 2008. gada. |
773 | 391.0000 | Pilsēta dibināta 13. gadsimtā pie pils. |
777 | 298.8889 | Vēl ir izcīnījis 9. vietu 2010. gada Eiropas čempionātā. |
785 | 271.7500 | Šis singls kļuva par pirmo no otrā albuma. |
794 | 278.4000 | Latvijā bieži sastopams visā teritorijā. |
794 | 234.2000 | Latvijā teritorijā ļoti bieži sastopams. |
804 | 219.1429 | Rīgas centrā temperatūra bija ap +10 °C. |
812 | 243.0000 | Uz tā virsmas atrodas mazāk par 5 % ūdens ledus. |
814 | 386.1429 | Kopš 2009. gada reti piedalās šaha turnīros. |
814 | 386.1429 | Kopš 2009. gada šaha turnīros piedalās reti. |
814 | 396.8333 | Tas orbītā palaists 2009. gada jūlijā. |
830 | 297.7143 | Latvijas basketbola izlases sastāvā aizvadīja 4 spēles. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II